微软、UIUC韩家炜组联合出品:少样本NER最新综述
©PaperWeekly 原创 · 作者 | 蔡杰
单位 | 北京大学硕士生
研究方向 | QA
当前的机器学习和深度学习模型都需要大量的标注数据来进行训练,以达到一个较好的效果。但是在带 label 的训练样本很少或很难获取的情况下,直接训练模型通常不会有很好的泛化能力,反而容易造成模型对样本过拟合以及对目标任务欠拟合。针对这几个问题少样本学习(few shot learning)应运而生,少样本学习指的是在 NLP 任务中只使用少量的标记样本训练模型,使得模型可以有效的学习小样本中的信息。本文针对 NER 领域中的 few shot learning 做了一个综述。
论文标题:
Few-Shot Named Entity Recognition: A Comprehensive Study
论文链接:
https://arxiv.org/pdf/2012.14978.pdf
Background on Few-shot NER
其中 N 表示的是该集合中样本的个数。
可能有人会问为什么要将 Few-shot 应用到 NER 中,毕竟 NER 可以通过一些远程监督的方法获取到 NER 标注样本,但是远程监督方法获取到的样本会存在很多噪声,其次无法保证远程监督标注的领域完全适应以及词表的完整性,也就是会有实体 OOV 的问题。因此将 Few-shot 方法应用 NER 也是一个很值得研究的方向。
了解了背景和基本做法之后,本文提出了将 few shot learning 应用于 NER 领域中需要面临的三个核心问题:
如何将元学习方法作为 prototype-based 的方法应用到 few-shot NER 领域中?
2. How to leverage freely-available web data as noisy supervised pre-training data?
如何利用大量免费可用的网页数据构造出 noisy supervised 方法中的预训练数据?
3. How to leverage unlabeled in-domain sentences in a semi-supervised manner?
如何在半监督的范式中利用好 in-domain 的无标注数据?
这里提到的 prototype methods 是基于 meta-learning 方法的 few-shot 方法。meta-learning 的核心思想就是让模型在多个具有大量标注数据的任务上学习,从而具备泛化到某个只有少量标注数据的任务上。
Support set(M 个 entity types, 每个 entity types 有 K/K' 个 sentence)
训练过程中 support set 中的 entity type 会通过采样不断迭代变化,infer 的时候则是对新的 token 使用最近邻(NN)算法计算最接近的那个类别。
[1] 在 few shot 的 NER 上探索了原型网络(prototypical network),但是 [1] 只使用了 RNN 作为主干模型,没有利用基于 Transformer 的体系结构的模型来对文本进行表示。因此可能该方法可能并没有将原型网络的效果发挥出来。
我们都知道通过预训练模型可以用于获取每个句子甚至每个 token 的 embedding 表示。但这些表示有个特点就是他们对于所有下游任务都是不可知的,也就是说预训练模型在预训练过程中对待每个 token 都是一致的。但是很多下游任务中,对某些特定的 token 需要有特别的处理。比如在 NER 任务中,对于“Mr. Bush asked Congress to raise to $ 6 billion”这句话,模型需要能够辨认出“Congress”是一个 entity,而“to”只是一个普通的 token。
那如何才能让预训练模型具备这种识别实体的能力呢?作者提出了一种利用大规模带噪声的网页数据(WiNER)来进行噪声监督预训练(noisy supervised pre-training)的方法。在 WiNER 中,包含着相较于下游任务更为丰富的实体类型,比如“Musician”和“Artist”通常表示的是两种不同的实体类型,而在常见的 NER 评测标准中二者都被归类为“Person”类型。
Self-Training 是一种半监督学习方法,利用到了大量无标注数据和少量标注数据。
1)先通过标注数据学习一个 teacher 模型;
3)使用标注数据和具有 soft 标签的数据训练 student 模型;
之后本文在以上提到的几种方法上做了像相应的实验:
backbone network:pre-trained base RoBERTa
dataset:
LC :linear classifier fine-tuning(fine-tuning 整个模型)
P :prototype-based method
NSP :noisy supervised pre-training ST:self-training 通过比较第 1 列和第 2 列(或比较第 3 列和第 3 列),可以看出在大多数数据集中(特别是在 5-shot 的设置下)噪声监督预训练取得了最好的结果,这表明 NSP 任务赋予了模型更强的提取 NER 相关特征的能力。 第 1 列和第 3 列之间的比较的是 LC 和基于原型的方法之间的差别:虽然基于原型的方法在 5-shot 中比 LC 在 CoNLL、WikiGold、WNUT17 和 Mul-tiwoz 上获得了更好的性能,但在其他数据集和平均统计数据上,它不如 LC,说明基于原型的方法只有在标记数据非常有限的情况下才能产生更好的结果。 当比较第 5 列和第 1 列(或比较第 6 列和第 2 列)时,可以看到使用 Self-Training 始终比仅使用标记数据进行微调更有效,这表明 ST 是能够有效利用域内未标记数据的方法。 第 6 列则展示了大多数情况下 F1 的最高分数,表明本文提出的三个方案是相互补充的,并且可以结合起来在实践中产生最佳结果。
Conclusion
参考文献
[1] Alexander Fritzler, V. Logacheva, and M. Kretov. 2019. Few-shot classification in named entity recognition task. Proceedings of the 34th ACM/SIGAPP Sympo- sium on Applied Computing.
[2] M. Ziyadi, Yuting Sun, A. Goswami, Jade Huang, and W. Chen. 2020. Example-based named entity recog- nition. ArXiv, abs/2008.10570.
[3] Sam Wiseman and K. Stratos. 2019. Label-agnostic sequence labeling by copying nearest neighbors. ArXiv, abs/1906.04225.
特别鸣谢
感谢 TCCI 天桥脑科学研究院对于 PaperWeekly 的支持。TCCI 关注大脑探知、大脑功能和大脑健康。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧